Optimizing IoT Data Collection for Federated Learning Under Constraint of Wireless Bandwidth 輪読資料作り
from 2025/4/17
Optimizing IoT Data Collection for Federated Learning Under Constraint of Wireless Bandwidth 輪読資料作り
cf. Beamerでスライドを作るのリンク先
基礎を作成
内容はメモから拝借
もう少し詰める
必要な部分を読もう
輪読の構成
構成に従って作成
実際に作る
https://guides.lib.kyushu-u.ac.jp/LaTeX-LectureNote/equations
構成のために必要な部分を読む
どこ?
不足している部分
動機
帯域の制約を考えるのはなぜ?
帯域幅の制約がFLの精度に影響する
FLの説明
手法
概要
パラメータの伝送は最適化するか?
集約の面は考えないっぽい?
合ってるか確認
問題の設定
三つの集合を把握
RBをどう理解すればいい?
制約条件
1-4は基本の概念
IDがRBを使ってBSにデータを渡すよ,というのを定義
IDに対してBSは0個でもいい
送らないIDの存在を許容
伝送時にはBSとRBが同じだけ必要になる
伝送にはRBが必要だが,これは一つのみ割り当て
送らない場合があるので不等式
5~ 無線接続の帯域幅を定義
SINR
https://www.fujitsu.com/jp/group/mtc/technology/course/radionetworkarea/
信号の品質指標の一つ
信号の干渉や雑音の程度を測る?
式8が基本の帯域幅制約
7が単純にID~BS間の帯域幅
8は混雑を回避するための制約
7で定めた帯域幅がある伝送路を通る総データ生成量を以上なる
9~ 汎化誤差とか
汎化誤差は未知のデータに対する予測の誤差
これを最小化,つまり予測の精度を向上させるのが目的
丁寧に読まないとわからない
一旦読み飛ばす
汎化誤差を最小化する式は18
パラメータはU,V
19
遺伝的アルゴリズムに関する式
遺伝子はU,V
選択と突然変異と交叉を確率的に実行
最適なパラメータを決定する
詳細は調べないとわからなそう
実験
数値シミュレーション
よーわからんポイント
u_ij = 1 | 0, f_ik=1, vik = 0, ∀kをRに含む
問題設定
生成データ量を変えて実験
ID 20,BS 3,RB 5
ID, BSは1kmの正方形空間にランダム配置
IDで生成されるデータの量
\lambda_i 100 or 1000 Kbps
学習時間のTにおける総量 50000 データ
データの数が50000ということか?
ラベル数は10
各IDのラベル分布p_i (C)はランダム
式17の\beta依存を調べた
最適化の設定
よくわからない
4,8の制約を守る
ナイーブ
IDはランダム
最も近いBSに接続
fig2の見方
星型がBS
丸がID
同じ色のBSに接続
黒は未接続
比較
最適化手法は式17を小さくするために多数接続
BSに接続するIDの数が増えると良いらしい
17の導出を追わないとわからないかも?
現時点であまりわかっていない
ナイーブ
式8を満たせず近くにいても接続できない
輻輳防止の帯域幅制約に引っかかる
a,bの比較
データ生成量が多いか少ないか
aでは生成量が少ない -> 制約8による送信先の縛りが緩い
bは生成量が多い
下手なところに送ると一気に輻輳に近づく
扱うデータ量が増えると制約を守るために近いBSに送信することが多い
最適化とナイーブの比較
最適化の場合の方が接続したIDの数が多い
利用したデータの数が多い
KL距離はなんだっけこれ
KL(p(c)¦pj (c))が小さいらしい
ラベルの距離だったような
ラベルの分布もいい感じという意味??
最適化の\beta依存性
KLとは
|D|とは: 式12
精度あんまり変わらないと思うのだが
なぜ議論する?
深層学習モデルの学習結果
設定
データセット
cifar10
画像の10クラス分類
全部で5万のデータ
IDのデータ分布
シミュレーションで決まったλiとpi (c)に従う
ランダムに選択?
利用したモデル
モデル名,参考文献
VGG19, 20
DenseNet121, 21
ResNet152, 22
FLをFlowerで実装
FedAVGで集約
5つのローカルトレーニング
多分五回
50エポック
一回で50回?
50回になるよう繰り返した?
結果
精度がナイーブより高いことの意味
制約を守った上で精度が高いのが偉いんだっけ?
帯域幅の制約を守るFLが先に来ている??
守った上で精度が出せたのが偉いのか,精度が出せるのは当たり前なのか
精度の差が出た理由
データ生成量1000の時
結果がほぼ同じ
制約が厳しかったためとある
最適化の意図はなんだったっけ?
制約下でも輻輳を起こさずにFLを行える?
100の時はかなり差があった
制約が緩いため
最良のデータ転送が行えた
量と分布が最適になる転送のこと?
\betaもKLも大事でFA?
モデルの構造に依存する?
評価や検証をどのように行なっているか
結果,知見
提案手法は帯域幅の制約下で,ナイーブな手法より精度を出しながらFLを行える
輻輳を起こさずFLが行えるのでは
パラメータ転送は考慮していない??
あくまでデータ収集の最適化
パラメータ転送も最適化して効果がある?
松村先輩の論文に何かあったはず
わからないこと
なぜ遺伝的アルゴリズム(GA)を使ったか
GAの理解がないせいで理由がわからない
式9とか一連の意味
E[L(hF)]のEは期待値